立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,称为“注意串联量”(ACV),该方法从相关线索中产生了注意力权重,以抑制冗余信息并增强串联体积中与匹配相关的信息。 ACV可以无缝嵌入大多数立体声匹配网络中,所得网络可以使用更轻巧的聚合网络,同时获得更高的精度。我们进一步设计了快速版本的ACV版本以实现实时性能,名为FAST-ACV,它产生了很高的可能性差异假设,以及来自低分辨率相关线索的相应注意力权重,可显着降低计算和记忆成本,同时保持令人满意的精度。我们快速ACV的核心思想是音量注意传播(VAP),它可以自动从上采样相关量中选择准确的相关值,并将这些准确的值传播到周围环境像素具有模棱两可的相关线索。此外,我们分别基于我们的ACV和Fast-ACV设计了高度准确的网络ACVNET和实时网络快速ACVNET,该网络在几个基准上实现了最新性能(即,我们的ACVNET排名第二,第二名在Kitti 2015和场景流以及所有已发布方法中的Kitti 2012和Eth3d的第三次;我们的快速ACVNET几乎优于现场流的所有最新实时方法,Kitti 2012和2015年,与此同时,与此同时更好的概括能力)
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私模型(NLDP)中PAC学习半空间的问题。为了违反指数样本复杂性的障碍,先前的结果研究了一个轻松的设置,在该设置中,服务器可以访问一些其他公共但未标记的数据。我们继续朝这个方向前进。具体来说,我们考虑了标准设置下的问题,而不是以前研究的较大的保证金设置。在对基础数据分布的不同温和假设下,我们提出了两种基于Massart噪声模型和自我监督学习的方法,并表明可以实现仅在维度和多项式中线性的样本复杂性,而其他术语则是线性的。私人数据和公共数据都大大改善了先前的结果。我们的方法也可以用于其他私人PAC学习问题。
translated by 谷歌翻译
无示例性课程学习(CIL)是一个具有挑战性的问题,因为严格禁止从先前阶段进行排练数据,从而导致灾难性忘记深度神经网络(DNNS)。在本文中,我们提出了ivoro,这是CIL的整体框架,源自计算几何形状。我们发现Voronoi图(VD)是一个用于空间细分的经典模型,对于解决CIL问题特别有力,因为VD本身可以以增量的方式构建好 - 新添加的站点(类)只会影响接近的类别,使非连续课程几乎无法忘记。此外,为了找到用于VD构建的更好的中心,我们使用功率图与VD串联DNN,并证明可以通过使用除法和争议算法集成本地DNN模型来优化VD结构。此外,我们的VD结构不限于深度特征空间,而是适用于多个中间特征空间,将VD推广为多中心VD(CIVD),可有效捕获DNN的多元元素特征。重要的是,Ivoro还能够处理不确定性感知的测试时间Voronoi细胞分配,并且在几何不确定性和预测精度之间表现出很高的相关性(高达〜0.9)。与最先进的非exemememplar CIL方法相比,Ivoro将所有内容汇总在一起,分别在CIFAR-100,Tinyimagenet和Imagenet-Subsset上获得了高达25.26%,37.09%和33.21%的改善。总之,Ivoro可以实现高度准确,保护隐私和几何解释的CIL,当禁止使用跨相数据共享时,这特别有用,例如在医疗应用中。我们的代码可在https://machunwei.github.io/ivoro上找到。
translated by 谷歌翻译
我们研究了具有重型数据的差异私有随机凸优化(DP-SCO)的问题。具体而言,我们专注于$ \ epsilon $ -dp模型中的$ \ ell_1 $ -norm线性回归。虽然以前的大多数工作侧重于丢失功能是Lipschitz的情况下,但在这里,我们只需要假设变体有界矩。首先,我们研究$ \ ell_2 $ norm的数据的界限二阶时刻。我们提出了一种基于指数机制的算法,并表明可以实现$ \ tilde {o}的上限(\ sqrt {\ frac {d} {n \ epsilon}})$(具有很高的概率)。接下来,我们在(1,2)$中的一些$ \ theta \中,您可以放松对绑定的$ \θtthnard时刻的假设,并表明可以实现$ \ tilde {o}的上限(({ \ frac {d} {n \ epsilon}})^ \ frac {\ theta-1} {\ theta})$。我们的算法也可以扩展到更轻松的情况,其中只有数据的每个坐标都有界矩,我们可以获得$ \ tilde {o}的上限({\ frac {d} {\ sqrt {n \ epsilon} }})$和$ \ tilde {o}({\ frac {d} {({n \ epsilon})^ \ frac {\ theta-1} {\ theta}})$ in第二和$ \ theta $ -th时刻案例。
translated by 谷歌翻译
随着模型复杂性和数据量的迅速增长,培训深度生成模型(DGMS)以实现更好的性能变得越来越重要的挑战。以前关于这个问题的研究主要集中在通过引入新的客观函数或设计更多富有表现力的模型架构来改善DGM。然而,这种方法通常会引入显着的计算和/或设计开销。为了解决这些问题,我们在本文中介绍了一个称为{\ EM生成式 - 模型推理}的通用框架,其能够在各种应用场景中有效和无缝地增强预先训练的GAN。我们的基本思想是有效地推断给定的要求使用Wassersein梯度流量技术,而不是重新训练或微调预先训练的模型参数。对图像生成,图像转换,图像生成,图像修正和文本引导图像编辑等应用的广泛实验结果表明了我们所提出的框架的有效性和优越性。
translated by 谷歌翻译
培训文本到图像生成模型中的主要挑战之一是需要大量的高质量图像文本对。虽然图像样本通常很容易接近,但相关的文本描述通常需要仔细的人类标题,这是特别的 - 耗时和成本耗费。在本文中,我们提出了第一项工作来培训没有任何文本数据的文本到图像生成模型。我们的方法利用了强大的预训练剪辑模型的良好对齐的多模态语义空间:通过从图像特征生成文本特征,无缝地减轻了文本调节的要求。进行广泛的实验以说明所提出的方法的有效性。我们在标准的文本到图像生成任务中获得最先进的结果。重要的是,拟议的无语模型优于具有完整图像文本对训练的大多数现有型号。此外,我们的方法可以应用于微调预先训练的模型,它可以节省培训文本到图像生成模型的培训时间和成本。我们预先接受的模型在MS-Coco DataSet上获得竞争激烈的结果,在零拍摄的图像集中在MS-Coco DataSet上产生竞争结果,但距离最近提出的大型Dall-E型号的模型大小和培训数据大小约为1%。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私(NLDP)模型中估计平滑普遍线性模型(GLM)的问题。与其经典设置不同,我们的模型允许服务器访问一些其他公共但未标记的数据。在本文的第一部分中,我们专注于GLM。具体而言,我们首先考虑每个数据记录均为I.I.D.的情况。从零均值的多元高斯分布中取样。由Stein的引理动机,我们提出了GLMS的$(Epsilon,\ delta)$ -NLDP算法。此外,算法的公共数据和私人数据的示例复杂性以实现$ \ alpha $的$ \ ell_2 $ -norm估计错误(具有高概率)为$ {o}(p \ alpha^{ - 2})$和$ \ tilde {o}(p^3 \ alpha^{ - 2} \ epsilon^{ - 2})$,其中$ p $是特征向量的维度。这是对$ \ alpha^{ - 1} $中先前已知的指数或准过程的重大改进,或者在$ p $中的指数smack sample sample smack glms的复杂性,没有公共数据。然后,我们考虑一个更通用的设置,每个数据记录为I.I.D.从某些次高斯分布中取样,有限制的$ \ ell_1 $ -norm。基于Stein的引理的变体,我们提出了一个$(\ epsilon,\ delta)$ - NLDP算法,用于GLMS的公共和私人数据的样本复杂性,以实现$ \ ell_ \ elfty $ - infty $ -NOMM估计的$ \ alpha误差$是$ is $ {o}(p^2 \ alpha^{ - 2})$和$ \ tilde {o}(p^2 \ alpha^{ - 2} \ epsilon^{ - 2})$,温和的假设,如果$ \ alpha $不太小({\ em i.e.,} $ \ alpha \ geq \ omega(\ frac {1} {\ sqrt {p}}})$)。在本文的第二部分中,我们将我们的想法扩展到估计非线性回归的问题,并显示出与多元高斯和次高斯案例的GLMS相似的结果。最后,我们通过对合成和现实世界数据集的实验来证明算法的有效性。
translated by 谷歌翻译
For the aerial manipulator that performs aerial work tasks, the actual operating environment it faces is very complex, and it is affected by internal and external multi-source disturbances. In this paper, to effectively improve the anti-disturbance control performance of the aerial manipulator, an adaptive neural network backstepping control method based on variable inertia parameter modeling is proposed. Firstly, for the intense internal coupling disturbance, we analyze and model it from the perspective of the generation mechanism of the coupling disturbance, and derive the dynamics model of the aerial manipulator system and the coupling disturbance model based on the variable inertia parameters. Through the proposed coupling disturbance model, we can compensate the strong coupling disturbance in a way of feedforward. Then, the adaptive neural network is proposed and applid to estimate and compensate the additional disturbances, and the closed-loop controller is designed based on the backstepping control method. Finally, we verify the correctness of the proposed coupling disturbance model through physical experiment under a large range motion of the manipulator. Two sets of comparative simulation results also prove the accurate estimation of the proposed adaptive neural network for additional disturbances and the effectiveness and superiority of the proposed control method.
translated by 谷歌翻译
How to effectively explore the colors of reference exemplars and propagate them to colorize each frame is vital for exemplar-based video colorization. In this paper, we present an effective BiSTNet to explore colors of reference exemplars and utilize them to help video colorization by a bidirectional temporal feature fusion with the guidance of semantic image prior. We first establish the semantic correspondence between each frame and the reference exemplars in deep feature space to explore color information from reference exemplars. Then, to better propagate the colors of reference exemplars into each frame and avoid the inaccurate matches colors from exemplars we develop a simple yet effective bidirectional temporal feature fusion module to better colorize each frame. We note that there usually exist color-bleeding artifacts around the boundaries of the important objects in videos. To overcome this problem, we further develop a mixed expert block to extract semantic information for modeling the object boundaries of frames so that the semantic image prior can better guide the colorization process for better performance. In addition, we develop a multi-scale recurrent block to progressively colorize frames in a coarse-to-fine manner. Extensive experimental results demonstrate that the proposed BiSTNet performs favorably against state-of-the-art methods on the benchmark datasets. Our code will be made available at \url{https://yyang181.github.io/BiSTNet/}
translated by 谷歌翻译
As a natural extension of the image synthesis task, video synthesis has attracted a lot of interest recently. Many image synthesis works utilize class labels or text as guidance. However, neither labels nor text can provide explicit temporal guidance, such as when an action starts or ends. To overcome this limitation, we introduce semantic video scene graphs as input for video synthesis, as they represent the spatial and temporal relationships between objects in the scene. Since video scene graphs are usually temporally discrete annotations, we propose a video scene graph (VSG) encoder that not only encodes the existing video scene graphs but also predicts the graph representations for unlabeled frames. The VSG encoder is pre-trained with different contrastive multi-modal losses. A semantic scene graph-to-video synthesis framework (SSGVS), based on the pre-trained VSG encoder, VQ-VAE, and auto-regressive Transformer, is proposed to synthesize a video given an initial scene image and a non-fixed number of semantic scene graphs. We evaluate SSGVS and other state-of-the-art video synthesis models on the Action Genome dataset and demonstrate the positive significance of video scene graphs in video synthesis. The source code will be released.
translated by 谷歌翻译